<ml 교육 과제1> 남녀 성별 분류 모델

데이터 로딩 및 확인

transac_data

1) object로 형변환(user_id / song_id / listen)

songs_data

1) object로 형변환(song_id / genre / artist / composer / lyricist / language)

train_data

1) object로 형변환(city / reg_method)
2) datetime으로 형변환(reg_date / ex_date)

test_data

1) object로 형변환(city / reg_method)
2) datetime으로 형변환(reg_date / ex_date)

Training Data 탐색

age 이상값 대체(중앙값 27로)

만 0세는 있을 수 있으나, 나이 분포 고려했을 떄 이상값의 비율이 높을 것으로 예상됨
131세, 935세도 같은 이유로 대체

Transaction Data

Merge 시 속성 조정
  1. 카테고리 데이터:최빈 값으로 처리(rec_loc, rec_screen, entry)

transaction data에 train의 gender Merge

m_transac_train에 songs data Merge

발매 연도별 청취연령의 평균

Support Vector Machines

Logistic Regression

k-Nearest Neighbor

gaussian classifiers

Decision tree

Artificial Neural Network

Evaluation

데이터 전처리

merge

test에도 똑같이

변수 설명

quantitive variable

qualitative variable

dependent variable(y)

Support Vector Machines

Logistic Regression

k-Nearest Neighbor

gaussian classifiers

Decision tree

Artificial Neural Network

Evaluation

차원 축소(LDA)

예측 성능이 좋지 않은 이유를 찾아보자